ANÁLISE EXPLORATÓRIA DE DADOS



1 Preparação dos Dados e Sanity Check



1.1 Importando Módulos e Base de Dados

1.2 Descrição dos Dados

Uniformizando o Dataset

1.3 Tratando Valores Faltantes

Observações:

(4) Escolaridade, Renda Mensal Informal, Quant Adiantamento Deposito e Qtd Fonte de Renda apresentam colunas com valores predominantemente faltantes.
(2) Valor Conta Corrente e Valor Conta Poupança estão completamente vazios
- Constituem a maior parte das variáveis numéricas e estão diretamente relacionadas com a capacidade financeira dos tomadores de crédito.
- Um descarte desses valores seria interessante para porcentagens menores de valores faltantes. Além disso, há a possibilidade desses valores faltantes estarem ausentes não por acaso , mas por possuirem alguma relação com outras variáveis da base de dados. Nesse caso, simplesmente descartá-los significaria descartar informação essencial ao modelo.
- Uma possível utilização de método substitutivo (média, mediana, ...) é parcialmente inconsistente devido a alta porcentagem de valores faltantes nessas colunas.
- Uma opção seria a criação de colunas de classificação binária para os (4) valores parcialmente faltantes, dando mais opções para a criação do modelo se for definido que a utização dessas variáveis é indispensável.
- Por fim, descartam-se as (2) colunas totalmente faltantes por se tornarem nulas para o modelo.


2 Entendendo os Dados



2.1 Atributos Categóricos

1. Estado


(56) São Paulo --------- (57) Minas Gerais

(58) Rio de Janeiro ---------- (59) Espírito Santo

1 - Existe também a possibilidade de retirar essa variável do modelo a fim de evitar certo determinismo geográfico ou regionalismo. Especialmente se considerarmos as desigualdades entre as regiões brasileiras.
2 - Tratando-se de estados do Sudeste somente, talvez não seja o caso nessa base de dados.
1 - A uniformidade da distribuição entre os estados torna essa variável candidata a ser retirada de um eventual modelo a fim de simplificá-lo.
Talvez isso seja devido a proximidade geográfica entre os estados listados. (Homogeneidade)

2. Escolaridade


Transformando os valores faltantes da categoria 'escolaridade' em 4 -> (não informado)

(1) Ensino Médio ------------- (3) Pós Graduação

(2) Ensino Superior ------------- (4) Não Informado

Observamos que a distribuição de valores entre as categorias é desbalanceada
Existem dois contextos para a existência desses valores faltantes:
1 - Os dados estão ausentes ao acaso e sua ausência não tem relação com as outras variáveis da base de dados. (Missing Values at Random)
2 - Os dados estão ausentes por estarem relacionados com outras variáveis do modelo (Missing Not at Random)

3. Estado Civil


(1) Divorciado

(2) Solteiro

(3) Casado(a) com separação de bens

(4) Casado(a) com comunhão parcial de bens

(5) Não consta na base de dados

(7) Viúvo(a)

(8) Casado(a) com comunhão de bens

(9) Outros

(11) Separado Judicialmente

Apesar do desbalanceamento e dos outliers, retirar essas ocorrências seria perder informação útil sobre categorias menos representadas


4. Gênero (Categórico - Binário)


(0) Masculino ------------- (1) Feminino
Distribuição Homogênea

Devido a homogeneidade, poderia ser retirada a fim de simplificar o modelo. Porém, provavelmente perderíamos informações relativas às outras variáveis, associações que dependem do gênero.


5. Controle (Categórico - Binário)


Valor único para todas as entradas, e como não parece ter relação direta com o problema da inadimplência, é candidata a ser retirada

2.2 Atributos Contínuos

1. Renda Mensal Informal


1) Boxplot para conhecer a dispersão e outliers
2) Distribuição assimétrica, com outliers que destoam muito da amplitude máxima
3) A mediana tem uma disposição assimétrica na dispersão (caixa)
4) Para essa variável , o uso do método IQR pode ser uma solução para reduzir as distorções

2. Idade


1) Boxplot para conhecer a dispersão e outliers
2) A remoção de idades pode significar perda de informação importante sobre uma faixa de dados pouco representada devido ao desbalanceamento da base.

3. Multa


1) Boxplot para conhecer a dispersão e outliers
2) Distribuição assimétrica, com outliers que destoam muito da amplitude máxima
3) A mediana tem uma disposição assimétrica na dispersão (caixa)
4) Para essa variável , o uso do método IQR pode ser uma solução para reduzir as distorções

4. Juros


1) Boxplot para conhecer a dispersão e outliers
2) Distribuição assimétrica, com outliers que destoam muito da amplitude máxima
3) A mediana tem uma disposição assimétrica na dispersão (caixa)
4) Para essa variável , o uso do método IQR pode ser uma solução para reduzir as distorções

5. Valor Empréstimo


1) Boxplot para conhecer a dispersão e outliers
2) Distribuição assimétrica, com outliers que destoam muito da amplitude máxima
3) A mediana tem uma disposição assimétrica na dispersão (caixa)
4) Para essa variável , o uso do método IQR pode ser uma solução para reduzir as distorções

6. Valor Empréstimo Atualizado


1) Boxplot para conhecer a dispersão e outliers
2) Distribuição assimétrica, com outliers que destoam muito da amplitude máxima
3) A mediana tem uma disposição assimétrica na dispersão (caixa)
4) Para essa variável , o uso do método IQR pode ser uma solução para reduzir as distorções

7. Valor Conta Corrente


Coluna com valor nulo para todas as entradas, apesar de ser potencialmente muito importante é candidata a ser retirada por sua condição nula.

8. Valor Conta Poupança


Coluna com valor nulo para todas as entradas, apesar de ser potencialmente muito importante é candidata a ser retirada por sua condição nula.
Não é interessante uma possível relação entre ID e as outras variáveis:

9. ID


Não é interessante uma possível relação entre ID e as outras variáveis:
1 - O formato numérico da variável pode gerar certas distorções.
2 - Uma possível criação de valores categóricos para ID seria computacionalmente muito custoso. Uma alternativa foi a criação da variável Recorrência, que contém a informação do n° de empréstimos para valores únicos de ID.
1 - Existem IDs com mais de 1 empréstimo na base de dados

2.3 Variável Alvo - Pago (Classificação Binária)

A distribuição de valores entre as categorias em relação a variável preditora é desbalanceada
(0) - Não
(1) - Sim

Porcentagem de NÃO pagos no total:

Porcentagem de NÃO pagos com recorrência (ID):

2.4 Filtrando Atributos

2.5 Missing Values

2.6 Filtrando Outliers



3 Associações



3.1 Análise das Principais Associações


1. Escolaridade | Renda Mensal Informal


2. Valor Emprestimo | Juros | Multa | Valor Empréstimo Atualizado

1) As 4 variáveis possuem índices de correlação > 0.8 entre si.
2) A composição de 'valor emprestimo' + 'juros' + 'multa' resultam em 'valor empréstimo atualizado'
3) É possível dizer que existem 4 variáveis com grau alto de informação mútua.


4 Avaliação das Features



Níveis de Classificação dos Atributos:

(1) - Relevante para o modelo

(2) - Neutra ou Dispensável

(3) - Irrelevante ou Sem Impacto


Escolaridade - Classificação : 1

Com a utilização da categoria criada (4 - Não Informado), a categoria escolaridade possui informação valiosa para o modelo


Renda Mensal Informal - Classificação : 2

Dados Faltantes, mas como são muito importantes, a utilização das colunas faltantes e de métodos de imputação para substituir valores faltantes podem ser soluções


Dependentes - Classificação : 1

Dados integrais e relacionados com a situação financeira do indivíduo


Estado Civil - Classificação : 1

O conhecimento do perfil de consumo doméstico pode ser útil


Idade - Classificação : 1

Pode ajudar no conhecimento das tendências de consumo a cada faixa etária


Conta Poupança - Classificação : 1

Dados integrais e relacionados com a situação financeira do indivíduo


Conta Salário - Classificação : 1

Dados integrais e relacionados com a situação financeira do indivíduo


Quant. Adiantamento Depósito - Classificação : 1

Dados Faltantes, mas como são muito importantes, a utilização das colunas faltantes e de métodos de imputação para substituir valores faltantes podem ser soluções


Qtd Fonte Renda - Classificação : 2


Cheque Sem Fundo - Classificação : 1

Dados integrais e relacionados com a situação financeira do indivíduo


Conta Conjunta - Classificação : 1

Dados integrais e relacionados com a situação financeira do indivíduo


Valor Conta Corrente - Classificação : 3

É potencialmente importante para o modelo, mas como está completamente vazia, é irrelevante


Valor Conta Poupança - Classificação : 3

É potencialmente importante para o modelo, mas como está completamente vazia, é irrelevante


Valor Empréstimo - Classificação : 2

Torna-se redundante com o uso da variável 'valor emprestimo atualizado'


Multa - Classificação : 2

Torna-se redundante com o uso da variável 'valor emprestimo atualizado'


Juros - Classificação : 2

Torna-se redundante com o uso da variável 'valor emprestimo atualizado'


Valor Empréstimo Atualizado - Classificação : 1

Pode substituir as variáveis 'multa','juros' e 'valor emprestimo' devido ao alto grau de informação mútua


Gênero - Classificação : 2

As distribuições são homogêneas para a variável preditora, mas podem existir certas relações com outras variáveis que podem variar para cada gênero


ID - Classificação : 2

Pode ser substituida pela variável 'recorrencia', ser usada em decision trees como categórica(apesar da alta cardinalidade) ou ser transformada em dummy (apesar do custo computacional)


Data - Classificação : 3

Todas as ocorrências possuem a mesma data de acesso para extração da base de dados


Estado - Classificação : 2

Pode ser utilizada, mas a homogeneidade na distribuição entre os estados torna essa variável dispensável a fim de simplificar o modelo


4 Modelagem


Pré-processamento de dados

Random Forest - Baseline

1 RandomizedSearchCV (Random Forest)

Para um problema de 'loan default', a principal métrica de score será 'precision' ou 'recall'?

A precision-recall curve fornece bons valores quando se lida com imbalanced classes